首页> 外文OA文献 >Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?
【2h】

Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?

机译:视觉问题答疑中的人文关注:做人与人   网络看同一个地区?

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We conduct large-scale studies on `human attention' in Visual QuestionAnswering (VQA) to understand where humans choose to look to answer questionsabout images. We design and test multiple game-inspired novelattention-annotation interfaces that require the subject to sharpen regions ofa blurred image to answer a question. Thus, we introduce the VQA-HAT (HumanATtention) dataset. We evaluate attention maps generated by state-of-the-artVQA models against human attention both qualitatively (via visualizations) andquantitatively (via rank-order correlation). Overall, our experiments show thatcurrent attention models in VQA do not seem to be looking at the same regionsas humans.
机译:我们在视觉问题解答(VQA)中对“人类注意力”进行了大规模研究,以了解人类选择去哪里寻找有关图像的问题。我们设计并测试了多个受游戏启发的新颖的注意力注释界面,这些界面要求对象锐化模糊图像的区域以回答问题。因此,我们介绍了VQA-HAT(HumanATtention)数据集。我们通过定性(通过可视化)和定量(通过排名相关性)评估由最新VQA模型生成的针对人类注意力的注意力图。总体而言,我们的实验表明,VQA中当前的注意力模型似乎并没有关注与人类相同的区域。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号